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摘要 : [目的 /意义 ] 探 完 中 国政 府 网 “一 带 一 路 ”相关 新 闻 的 话题 内 容 及 热度 变化 ,呈现 “一 带 一 路 ”倡议 
主题 及 动态 ,明确 不 同时 期 的 倡议 重点 ,为 相关 研究 提供 参考 。[ 方 法 /过 程 ] 构建 基于 LDA 模型 的 新 闻 话 题 内 
容 的 基本 框架 ,限定 2015 -2017 年 “一 带 一 路 ”相关 新 闻 数 据 ,利用 LDA 模型 进行 话题 抽取 ,根据 文档 与 话题 
的 概率 分 布 计算 ,分 析 各 主题 在 不 同时 间 段 的 热度 演化 。[ 结果 /结论 ] 抽取 得 出 30 个 细 分 话题 ,归纳 为 政策 沟 
通 、 设 施 联通 、 贸 易 畅通 资金 融通 、 民 心 相通 “一 带 一 路 ”对 我 国 经 济 的 影响 和 政府 工作 7 大 类 。 其 中 ,政策 沟 
通 类 在 全 时 间 段 上 热度 最 高 ,贸易 畅通 和 “一 带 一 路 ”对 我 国 经 济 的 影响 两 类 话题 紧 随 其 后 。“ 进 出 口 ”等 细 分 
话题 的 热度 不 断 上 升 ， 改 革 与 转型 “等 细 分 话题 的 热度 则 有 下 降 ,体现 了 官方 媒体 新 闻 内 容 及 其 关注 度 随时 间 
融 亦 化 的 特点 。 
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内 容 关 注 度 的 变化 情况 。 
2015 年 3 月 ,国家 发 展 改革 委 外 交 部 .商务 部 联 。 EE 

食 痪 布 了 《推动 共 建 丝绸 之 路 经 济 带 和 21 世纪 海上 丝 。 2. 1 “一带 一 路 "新 闻 研 究 

绸 之 路 的 愿景 与 行动 》, “一 带 一 路 "倡议 正式 进入 实 日 前 .围绕 < 一带 一 路 "新 闻 的 研究 以 


全 


出 


施 阶段 ”。"“ 一 带 一 路 "倡议 以 政策 沟通 \ 设 施 联通 、 集中 在 新 闻 报道 框架 研究 和 新 闻 内 容 的 量化 分 析 两 广 
贸易 畅通 资金 融通 、 民 心 相通 为 重点 合作 内 容 , 自 提 ” ”而 。 新 闻 框架 是 指 新 闻 媒体 在 对 新 闻 事实 进行 选择 性 
出 瓜 来 已 经 引起 了 国内 外 高 度 关 注 与 热烈 反响 ,我 国 处 理 时 所 依据 的 特定 原则 。 新 闻 报道 框架 研究 通常 是 
官 亦 媒体 对 该 倡议 进行 了 热烈 报道 。 对 “一带 一 路 ” ” 指 对 新 闻 篇 幅 、 新 闻 来 源 、 新 闻 选 题 等 进行 分 析 , 以 总 
相关 新 闻 内 容 进行 话题 分 析 , 有 助 于 公众 了 解 “ 一 带 一 。” 结 出 新 闻 报道 的 框架 特色 。 如 ; 姚 玉 娇 选取 《人 民 日 
路 "倡议 的 动态 及 不 同时 期 的 倡议 重点 ,进一步 丰富 。 报 》“ 一 带 一 路 ”相关 报道 ,从 新 闻 材料 的 选取 与 建构 、 
“一 带 一 路 ”相关 研究 。 笔 者 选取 具有 权威 性 的 “中 华 。 ”报道 内 容 , 报 道 主题 等 方面 探讨 了 “一 带 一 路 ”新 闻 报 
人 民 共 和 国 中 央 人 民政 府 门户 网 站 ”( 以 下 简称 中国 。” 道 的 生产 过 程 .信息 框 选 和 事实 建构 特点 ,认为 《人 民 
政府 网 ”) 的 “一 带 一 路 ”相关 新 闻 数 据 ,利用 LDA 模 日报》 形成 了 以 正面 引导 为 主 、 重 视 政策 宣传 和 成 就 展 
型 进行 话题 抽取 ,得 出 30 个 细 分 话题 ,将 其 归纳 为 政 。 示 的 新 闻 框架 "; 曾 润 喜 等 选取 人 民 网 .新 华 网 等 18 
策 沟通 、 设 施 联通 、 贸 易 畅 通 .资金 融通 、 民 心 相通 “一 “家 主流 媒体 的 118 篇 一带 一 路 ”相关 新 闻 报道 ,从 报 
带 一 路 "对 我 国 经 济 的 影响 和 政府 工作 七 大 类 别 , 计 ” 道 视角 ,报道 内 容 、 报 道 体 裁 和 语言 风格 几 方 面 进行 分 
算 .分析 了 七 大 类 别 和 细 分 话题 在 不 同时 间 段 的 热度 。 析 , 发 现 当前 新 闻 内 容 存在 政 宣 口气 浓重 .关注 点 雷 
演化 , 按 热度 变化 情况 将 其 分 为 上 升 类 .下 降 类 和 波动 ” 同 .单一 强调 中 国 作 用 等 问题 ,阻碍 了 社会 对 “一 带 一 
类 三 类 话题 ,呈现 了 官方 媒体 对 “一 带 一 路 ”不 同 新 闻 ”路 ”的 正确 认识 。 
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图 二 情报 三 作 
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针对 新 闻 内 容 的 量化 分 析 研 究 通 常 更 关注 新 闻 内 
容 本 身 ,试图 探究 新 闻 文章 的 主题 内 容 。 如 : 汗 海 藻 先 
取 了 114 篇 《中 国 日 报 》 和 466 篇 《中 国 日 报 . 美国 
版 ) 的 “一 带 一 路 "相关 新 闻 , 通 过 词 频 统计 方法 提取 
关键 词 并 划分 类 别 ,发 现 ( 中 国 日 报 》 报 道内 容 侧重 于 
经 济 类 别 ,《 中 国 日 报 * 美国 版 ) 侧 重 于 综合 类 报 
道中; 田 作 宇 选取 了 594 篇 “一 带 一 路 ”相关 的 印度 英 
语 新 闻 ,将 语料库 话语 分 析 与 情感 词典 相 结合 ,运用 词 
表 分 析 ,历时 主题 词 分 析 . 词 傍 分 析 等 方法 ,探究 新 闻 
对 “一 带 一 路 "倡议 的 解读 和 评价 ,发 现 印度 新 闻 报 道 
的 关注 内 容 主要 集中 在 领导 人 互 访 .中 国 与 印度 邻 国 
的 相关 合作 、 亚 投行 成 立 等 问题 上 ,媒体 态度 包含 怀疑 
和 揣测 等 多 种 复杂 情绪 中 。 

本 总 体 来 看 ,目前 “一 带 一 路 "新 闻 相关 研究 以 新 闻 
报 得 框架 研究 为 主 ,针对 新 闻 内 容 的 量化 分 析 研 究 数 
镶 少 ,并 且 量化 分 析 多 使 用 词 频 统计 、 词 能 分 析 等 方 
难 对 新 闻 话 题 进行 深 入 挖掘 。 

新 闻 话题 抽取 及 演化 分 析 研 究 

人 -话题 检测 与 跟踪 技术 (topic detection and tracking， 
科 移 TDT) 是 对 新 闻 媒 体 信息 流 进行 新 话题 自动 识别 
和 和 对 已 知 话题 进行 持续 跟踪 的 技术 ,已 成 为 信息 爆炸 
时 98 信息 处 理 领 域 的 热点 技术 之 一 。 对 新 闻 话题 进行 
请 剖 山 取 和 演化 分 析 是 TDT 的 应 用 之 一 ,常见 的 新 闻 
数据 建 模 方法 包括 基于 向 量 空间 模型 的 方法 基于 语 
总 异 型 的 方法 和 基于 概率 主题 模型 的 方法 等 。 

1 ) 向 量 空间 模型 (vector space model ,简称 VSM) 
由 泡 Salton 等 于 20 世纪 70 年 代 提 出 。 该 模型 将 文 
档 七 示 为 向 量 ,将 对 文本 内 容 的 处 理 简化 为 向 量 空间 
中 的 向 量 运 算 。J. Allan 等 以 广播 新 闻 报道 为 数据 源 ， 
将 新 闻 报 道 表 示 为 特征 向 量 ,利用 VSM 找 出 若干 新 闻 
话题 对 应 的 特征 向 量 ,判断 新 报道 的 文章 属于 已 知 话 
题 还 是 新 话题 ,实现 话题 的 检测 和 追踪 7 。 林 南 根据 
新 闻 报道 的 结构 和 时 间 特 征 ,提出 了 适用 于 话题 检测 
的 TD-VSM 模型 ,使 用 信息 炉 和 新 闻 报道 的 结构 特征 
改进 TF-IDF 权重 计算 ,结合 新 闻 报道 的 时 间 特 征 改进 
余弦 相似 度 计算 ,实现 对 新 闻 话题 的 识别 。 

(2 ) 语 言 模型 (language model, 简称 LM ) 由 M. 
Spitters 于 2002 年 首次 提出 ” 。 该 模型 根据 语言 客观 
事实 进行 语言 抽象 数学 建 模 ,包括 N-gram 模型 .决策 
树 模型 等 。V. Lavrenko 等 利用 特殊 的 一 元 语言 模型 ， 
即 相关 性 模型 ,对 已 有 的 话题 相关 新 闻 文档 进行 动态 
信息 扩充 ,提高 了 话题 模型 的 信息 全 面 性 。C. Zhai 
等 研究 了 语言 模型 平滑 问题 及 其 对 检索 性 能 的 影响 ， 
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发 现 检索 性 能 不 仅 对 平滑 参数 敏感 ,而 且 灵 人 敏 度 模式 
受 查 询 类 型 的 影响 ,具有 性 能 优势 。 

(3 ) 概率 主题 模型 ( probabilistic topic model ,简称 
PTM ) 的 理论 思想 起 源 于 T. Hofmann 在 潜在 语义 分 析 
(latent semantic analysis ,简称 LSA ) 基础 上 提出 的 概率 
隐 性 语义 分 析 模 型 ( probabilistic latent semantic analy- 
sis ,简称 pLSA ) ,该 模型 认为 每 篇 文档 由 话题 的 多 项 式 
分 布 随 机 生成 ,不 同 话题 又 会 产生 不 同 的 词 “。D. 
M. Blei 等 在 2003 年 提出 了 LDA 模型 (latent dirichlet 
allocation ) , 它 是 一 个 三 层 贝 叶 斯 生成 概率 模型 ,该 模 
型 将 文档 集合 模拟 为 潜在 话题 的 有 限 混 合 , 潜 在 的 话 
题 集合 又 由 若干 个 特征 词汇 构成 ” 。 之 后 出 现 了 许 
多 改进 与 扩展 后 的 概率 主题 模型 ,如 考虑 时 间 因 素 的 
动态 主题 模型 ”等 。L. Alsumait 等 提出 改进 的 在 线 主 
题 模型 OLDA ,在 线 自动 识别 新 出 现 的 新 闻 文档 的 新 
增 主 题 ,根据 新 数据 流 推 断 的 信息 增 量 式 地 更 新 主题 
模型 ,及 时 掌握 各 个 主题 随时 间 的 变化 情况 ” 。 楚 克 
明 等 以 两 会 新 闻 为 例 , 提 出 一 种 挖 据 新 闻 话 题 随 时 间 
变化 的 方法 , 先 利用 LDA 模型 对 不 同时 间 段 的 文档 集 
合 进行 话题 抽取 ,再 计算 相 邻 时 间 段 中 的 任意 两 个 话 
题 的 分 布 距离 ,以 发 现 话题 之 间 的 内 容 关 联 , 得 出 新 闻 
话题 的 内 容 演 化 ” 。 

除 上 述 三 类 模型 外 ,词汇 链 模型 .图 模型 等 方法 也 
有 所 出 现 , 不 断 丰富 着 新 闻 话 题 抽取 与 演化 分 析 的 相 
关 人 研究 。 总 体 来 讲 , 向 量 空 间 模型 虽然 应 用 广泛 ,但 由 
于 没有 考虑 文字 之 间 的 语义 关联 , 仍 存在 一 定 缺 陷 ; 语 
言 模型 在 突 发 性 的 新 闻 话 题 上 欠缺 一 定 的 准确 性 , 尚 
未 成 为 主流 ;概率 主题 模型 具有 较 好 的 泛 化 性 ,并 可 以 
通过 扩展 模型 ,使 其 能 在 处 理 短 文本 等 方面 也 取得 不 
错 的 效果 ,正在 被 广泛 应 用 。 目 前 对 于 “一 带 一 路 ”新 
闻 的 研究 主要 集中 于 新 闻 框 架 研 究 , 缺 乏 对 新 闻 内 容 
本 喘 的 深入 研究 。 作 为 概率 主题 模型 的 一 种 ,LDA 模 
型 具有 强大 的 话题 识别 能 力 ,已 被 应 用 于 话题 发 现 \ 文 
本 分 类 .文本 聚 类 情感 分 析 等 多 个 领域 ,有 着 较 好 的 
效果 。 因 此 ,本 文选 取 LDA 模型 分 析 “ 一 带 一 路 ”相关 
新 闻 , 以 探究 新 闻 话题 的 构成 及 其 热度 演化 情况 。 

3 ”话题 抽取 与 演化 分 析 框 架 
3.1 话题 抽取 框架 

LDA 模型 是 一 个 三 层 贝 叶 斯 生成 概率 模型 , 包 全 
词 .主题 和 文档 三 层 结 构 , 将 文档 模拟 为 潜在 话题 的 有 
限 混合 。 在 LDA 模型 的 三 层 结 构 中 ,首先 假设 词 是 由 
话题 的 概率 分 布 混合 而 成 ,再 假设 文档 由 潜在 话题 的 
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概率 分 布 混合 而 成 。 对 于 每 篇 文档 , 先 从 Dirichlet 分 
布 中 抽样 产生 该 文档 包含 的 话题 比例 ,再 结合 话题 和 
词 的 概率 分 布 生成 文档 中 的 每 一 个 词 “” 。 如 下 步 又 
详细 描述 了 LDA 模型 中 一 篇 文档 的 生成 过 程 , 其 中 使 
用 的 符号 及 其 含义 见 表 1。 

(1) 对 文档 集合 中 的 文档 d ,根据 0, ~ Dirichlei( a) 
生成 该 文档 上 的 话题 分 布 ; 

(2) 文 档 d 中 第 i 个 词 wj 的 生成 : 

e 生成 一 个 话题 zx ~ Multinomial(0,); 


。 根据 pg; ~ Dirichlei(B) 生 成 话题 在 词 表 上 的 分 


be 生成 使 p( Wj; 1p， ) 最 大 的 一 个 词 O 
表 1 LDA 模型 符号 含义 说 明 


符号 含义 
d 一 篇 文档 
Wai 文档 d 的 第 i 个 词 
Zk 话题 k 
Qa 文档 d 的 话题 的 多 项 式 分 布 
Pk 话题 k 在 词 表 上 的 多 项 式 分 布 
a 文档 -话题 分 布 的 先 验 参数 
B 话题 - 词 分 布 的 先 验 参数 


LDA 模型 引入 了 a 和 BB 来 完成 文档 的 生成 过 程 ， 


herence) ”衡量 了 某 一 话题 下 高 频 出 现 概率 词语 之 间 
的 语义 相似 程度 ,可 用 于 LSA 、LDA 等 模型 的 评估 。 对 
于 模型 中 的 话题 ,如 果 该 话题 下 高 频 出 现 概率 词语 间 
的 语义 相似 程度 较 高 , 则 认为 该 话题 的 一 致 性 较 高 , 模 
型 效果 较 好 。 将 话题 数目 设置 为 等 距 的 多 个 值 (N,， 
N,,… N,) ,计算 每 个 话题 数目 下 模型 的 话题 一 致 性 程 
度 ,话题 一 致 性 的 最 高 值 对 应 最 优 话题 数目 ,本 文选 取 
此 指标 作为 话题 数目 选取 的 依据 。 

话题 抽取 流程 如 图 1 所 示 , 即 采集 得 到 中 国政 府 
网 中 “一 带 一 路 ”相关 新 闻 文 档 集合 后 ,对 数据 集 进行 
数据 清洗 分词 等 预 处 理 过 程 ,根据 话题 一 致 性 指标 选 
取 最 佳话 题 数 目 , 再 利用 LDA 模型 抽取 话题 ,并 对 话 
题 内 容 进行 类 别 划 分 ,实现 新 闻 文 档 的 内 容 挖 
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图 1 话题 抽取 框架 


3.2 ”话题 热度 演化 分 析 框 架 

话题 热度 一 般 通 过 话题 与 文档 之 间 的 关联 度 表 
示 , 同 一 话题 可 能 以 不 同 的 重要 程度 出 现在 各 个 文档 
中 ,一 个 话题 被 越 多 文章 提 及 , 则 热度 越 高 。 通 过 计算 


准 通 过 Gibbs Sampling 期望 扩散 等 方法 来 对 6 和 两 
个 参数 进行 近似 推理 ,得 到 文档 的 话题 。 该 方法 的 关 
键 套 于 如 何 求解 当前 词语 采样 的 概率 ,其 求解 得 到 的 
9 和 Dp 的 后 验 估计 值 ' ”表达 式 如 下 
ES Cta .CX+p 
0 
二 其 中 K 表示 话题 数目 ,CY 表示 文档 d 中 指派 给 第 
j 个 话题 的 词 数目 ,和 ,CY 表示 文档 d 中 所 有 被 分 配 
了 话题 的 词 数目 ,CW* 表 示 第 i 个 词 指派 给 第 j 个 话题 
的 次 数 , Z,-，CY 表示 指 派 给 第 j 个 话题 的 所 有 词 数 
目 。 

本 文 沿用 LDA 模型 中 对 话题 的 定义 , 即 话题 是 一 
组 语义 相关 的 词语 及 这 些 词语 在 该 话题 上 的 分 布 概率 
值 ,可 表示 为 : 

Z=1(w;p(w | 72)), (wp(w | 2)),, (wy,p 
Cw, | 72))| 

其 中 ,Z 表示 话题 ,w, 表示 第 i 个 词语 ,p(w | z) 
表示 话题 2 下 出 现 第 i 个 词语 的 概率 值 ,V 表示 词 表 
的 大 小 。 

利用 LDA 模型 对 新 闻 文档 进行 话题 抽取 时 ,抽取 
的 话题 数目 的 设 定 非 常 关键 。 话 题 一 致 性 (topic co- 


某 一 话题 在 不 同时 间 段 内 的 热度 ,可 反映 话题 热度 随 
时 间 变 化 的 趋势 ,实现 话题 热度 的 演化 分 析 。 话 题 的 
热度 根据 文档 - 话题 的 分 布 计算 , 即 计算 得 出 某 个 话 
题 在 所 有 文档 中 出 现 概率 的 平均 值 ,如 话题 x 在 某 一 
时 间 段 中 的 热度 可 以 表示 为 : 

deD Ou 
3 = 
其 中 ,D 表示 某 一 时 间 段 中 的 文档 集合 ,1D1 表 示 
文档 集合 D 中 的 文档 数量 ,d 表示 D 中 的 一 篇 文档 ,6w 
表示 话题 z, 出 现在 文档 d 中 的 概率 。 

对 所 有 新 闻 文档 集合 抽取 话题 后 ,首先 计算 得 出 各 
个 话题 在 全 时 间 段 上 的 总 体 热度 排名 ,之 后 将 文档 集合 
按照 其 发 布 时 间 离散 到 各 个 时 间 窗口 中 ,利用 LDA 模型 
得 到 的 文档 -话题 分 布 矩 阵 计算 各 个 话题 在 每 个 时 间 
窗口 内 的 热度 ,得 到 话题 热度 随时 间 的 变化 情况 。 根 据 
每 个 话题 的 热度 走势 ,将 其 按照 热度 变化 划分 为 上 升 类 
话题 下降 类 话题 和 波动 类 话题 ,得 到 不 同 话题 的 热度 
演化 情况 。 具 体 话题 热度 演化 分 析 框 架 见 图 2。 


4 实验 过 程 及 结果 分 析 


4.1 数据 采集 
分 别 以 “一 带 一 路 “丝绸 之 路 经 济 带 ”“ 
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图 二 情报 三 作 
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话题 热度 变化 
图 2 话题 热度 演化 分 析 框 架 


海上 丝绸 之 路 "作为 检索 关键 词 ,将 时 间 限 定 为 2015 
-2017 年 间 ,对 检索 结果 去 重 后 得 到 8 069 篇 新 闻 文 
档 ,年 度数 量 分 布 如 表 2 所 示 : 

表 2 “一 带 一 路 ”相关 新 闻 篇 数 统计 


i- 年 份 2015 年 2016 年 2017 年 
Ce 闻 篇 数 2428 3019 2622 


< 为 提高 实验 准确 性 ,对 采集 到 的 初始 数据 进行 预 
代理 ,包括 :去 除 新 闻 文 本 中 无 意义 的 字符 ;将 “一 带 一 
路 "入 关 词语 添加 到 用 户 自 定义 词典 中 ,防止 其 被 错误 
划 富 ;利用 结巴 分 辣 对 新 闻 语 料 进行 分 间 处 理 并 过 滤 


二 的 停 用 词 以 及 人 名 等 对 话题 区 分 度 不 高 的 词语 
人 Am | 


4 话题 抽取 及 演化 分 析 结果 

4.351 话题 抽取 结果 ”以 话题 一 致 性 指标 为 衡量 标 
准 间 过 实验 的 方法 选择 合适 的 话题 数目 ,实验 结果 如 
图 GJ 所 示 : 
S 


9 ss 


a 


话题 一 致 性 程度 


3 不 同 话题 数 下 的 话题 一 致 性 程度 


可 以 看 出 ,话题 数 为 30 时 ,话题 中 词语 的 语义 相 
似 程度 最 高 ,话题 一 致 性 最 强 ,因此 将 话题 数目 确定 为 
30 最 佳 , 通 过 LDA 模型 共 抽 取出 30 个 与 “一带 一 路 ” 
相关 的 新 闻 话 题 。 笔 者 结合 话题 关键 词 以 及 话题 对 应 
的 新 闻 文档 内 容 , 将 30 个 话题 归纳 为 七 个 大 类 ,分 别 
是 :政策 沟通 、 设 施 联 通 、 贸 易 畅 通 .资金 融通 、 民 心 相 
通 “ 一 带 一 路 "对 我 国 经 济 的 影响 和 政府 工作 。 具 体 
对 应 的 细 分 话题 .话题 词 .话题 热度 及 排名 如 表 3 所 
不 : 
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可 以 看 出 :GD 政策 沟通 类 别 涵盖 ”一带 一 路 "沿线 
国家 政府 层面 的 合作 互通 ,体现 各 国政 府 如 何 沟 通 、 交 
流 , 以 达成 政治 互信 与 合作 共识 , 共 包 含 领导 人 会 谈 等 
7 个 话题 ; 巴 设 施 联通 类 别 涵盖 “一 带 一 路 ”沿线 国家 
的 基础 设施 建设 ,形成 连接 沿线 各 国 的 基础 设施 网 络 ， 
共 包 含 交通 建设 等 3 个 话题 ;B® 贸易 畅通 类 别 涵盖 “一 
带 一 路 ”沿线 国家 的 投资 与 贸易 合作 ,致力 于 解决 投资 
与 贸易 便利 化 的 问题 , 共 包 含 产业 创新 等 6 个 话题 ;外 
资金 融通 类 别 涵盖 “一 带 一 路 "沿线 国家 的 金融 合作 
与 监管 ,包含 跨 境 金 融 服 务 话题 ;民心 相通 类 别 涵盖 
“一 带 一 路 ”沿线 国家 对 丝绸 之 路 友好 合作 精神 的 传 
承 ,在 文化 交流 、 学 术 往 来 等 各 个 领域 展开 合作 交流 ， 
共 包 含 科研 创新 等 6 个 话题 ;@ "一带 一 路 ”对 我 国 经 
济 的 影响 类 别 不 以 国家 间 的 合作 互通 为 核心 ,而 是 着 
眼 于 我 国 经 济 在 "一 带 一 路 "倡议 后 的 变化 与 发 展 , 共 
包含 改革 与 转型 等 4 个 话题 ;GO 政府 工作 类 别 更 关注 
我 国政 府 在 “一 带 一 路 "倡议 下 的 工作 内 容 , 共 包含 制 
度 管理 等 3 个 话题 。 

总 体 热度 排名 前 5 位 的 细 分 话题 分 别 是 :改革 与 
转型 .领导 人 会 谈 .产业 创新 .博鳌 亚 洲 论坛 .交通 建 
设 , 具 体 含 义 如 下 : 

(1) 改 革 与 转型 。 该 话题 曾 述 了 “一 市 一 路 "对 我 
司 经 济 转型 的 影响 。 "一带 一 路 "倡议 具有 提升 投资 
贸易 便利 性 、 优 化 贸易 结构 、 提 升 科 技术 平等 优势 ,可 
推进 我 国 经 济 的 自由 化 ,市 场 化 和 国际 化 ,并 加 重 科技 
力量 在 经 济 中 的 作用 ,促进 我 国 经 济 结构 的 调整 。 

(2) 领导 人 会 谈 。 该 话题 主要 涉及 ”一带 一 路 " 治 
线 各 国 领 导 人 的 出 访 、 会 谈 贺电 等 新 闻 ,描述 各 国 领 
导 人 如 何 沟通 “一 带 一 路 ”合作 并 建立 起 互利 共 启 的 
全 面 战略 伙伴 关系 。 领 导 人 之 间 的 接触 是 国家 间 沟 通 
的 直接 桥梁 ,是 “一 带 一 路 ”沿线 国家 政策 互通 的 重要 
环节 。 

(3) 产 业 创新 。 该 话题 提 及 我 国 长 江 经 济 带 、 长 
三 角 城 市 群 ,长 吉 新 区 等 产业 创新 园区 的 建立 和 发 展 。 
这 些 园 区 的 建立 有 助 于 我 国 发 挥 产业 优势 .促进 产业 
创新 ,从 而 作为 节点 地 区 来 推动 一带 一 路 "沿线 各 国 
的 产业 升级 与 合作 ,促进 经 贸 发 展 。 

(4) 博鳌 亚 洲 论 坛 。 该 话题 涉及 的 博鳌 亚洲 论坛 
是 由 25 个 亚洲 国家 和 澳大利亚 共同 发 起 的 国际 会 议 
组 织 , 则 在 增进 亚洲 各 国之 间 、 亚 洲 各 国 与 世界 其 他 地 
区 之 间 的 交流 与 合作 。 近 几 年 来 , 随 着 “一 带 一 路 " 倡 
议 的 不 断 发 展 ,该 倡议 已 逐渐 成 为 博鳌 亚洲 论坛 的 议 
题 之 一 ,在 会 议 中 占据 一 定 的 比重 。 博 敖 亚洲 论坛 已 
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表 3 “一 带 一 路 ”相关 新 闻 话题 结果 展示 

类 别 话题 抽取 出 的 话题 词 (前 10 个 ) 话题 热度 ”热度 排名 
政策 沟通 领导 人 会 谈 交流 ,深化 ,会 见 ,务实 ,互利 ,友好 ,人 文 ,签署 ,战略 伙伴 ,访问 0.063 2 
博鳌 亚洲 论坛 亚洲 ,论坛 ,非洲 , 亚 投行 ,基础 设施 ,博鳌 ,未 来 ,关注 ,中 非 ,媒体 0.061 4 
会 议 召 新 疆 , 论 坛 ,博览 会 ,交流 ,会 议 ,介绍 ,主任 ,部 长 , 援 疆 ,召开 0. 045 7 
人 类 命运 共同 体 治理 ,理念 ,开放 ,共同 体 ,命运 ,历史 ,大 国 , 外 交 , 构 建 ,东亚 0.044 8 
世界 局 势 探讨 安全 ,会 议 ,联合 国 ,上 合 ,成 员 国 ,稳定 ,维护 ,问题 ,峰会 ,对 话 0.042 11 
同 中 东欧 国家 的 合作 中 欧 , 中 东欧 , 俄 ,欧洲 ,沿线 ,俄罗斯 , 欧 亚 ,欧盟 ,贸易 ,签署 0.038 12 
同 东盟 国家 的 合作 东盟 ,海上 ,马来西亚 ,世纪 ,东盟 国家 ,共同 体 ,越南 ,泰国 ,互联 互通 ,区 域 0.032 15 
设施 联通 交通 建设 铁路 ,物流 ,高 铁 ,交通 ,港口 ,运输 ,交通 运输 ,公路 ,通道 , 班 列 0.049 5 
能 源 建 设 能 源 ,产能 ,装备 ,制造 ,技术 ,产业 ,生产 ,产品 ,核电 ,集团 0.026 18 
通信 建设 海洋 ,印尼 ,海上 ,世纪 ,卫星 ,国家 海洋 局 ,福建 ,测绘 ,福州 ,航天 0.014 27 
贸易 畅通 产业 创新 产业 ,优势 ,城市 ,区 域 ,全 国 ,中 心 ,全 省 ,长 江 , 平 台 ,基地 0.062 3 
进出 口 出 口 , 外 贸 , 贸 易 , 进 出 口 ,对 外 ,进口 ,商务 部 ,直接 ,沿线 ,下 降 0.043 9 
自 贸 试验 区 自 贸 区 ,开放 ,贸易 ,试验 区 ,海关 ,通关 ,上 海 ,对 外 开放 , 自 贸 ,区 域 0.026 19 
= 税务 及 审计 政府 ,审批 ,部 门 ,税收 ,政策 ,地 方 ,试点 ,管理 ,行政 ,资金 0. 025 21 
> 港澳 的 经 贸 角 色 香港, 谈判 ,协定 ,经 贸 合 作 ,贸易 ,经 贸 ,内 地 , 自 贸 区 ,澳门 ,部 长 003 2 
CO 产权 保护 互联 网 ,信息 ,知识 产权 ,电子 商务 ,平台 ,信息 化 ,网 络 ,品牌 ,数据 , 质 检 0.023 23 
金融 通 跨 境 金 融 服务 金融 ,融资 ,人 民 币 ,银行 , 资 本 ,基金 ,资金 ,风险 ,金融 机 构 ,贷款 0.025 20 
> 相通 科研 创新 科技 ,技术 ,标准 ,研究 ,人 才 , 标 准 化 ,体系 ,能 力 ,资源 ,研发 0.032 14 
© 文化 交流 文化 ,民族 ,宗教 ,传统 ,出 版 ,传播 ,文明 ,优秀 ,海外 ,精神 0.018 25 
~ 旅游 产业 旅游 ,两 岸 ,海南 ,台湾 ,游客 ,旅游 业 , 大 陆 , 海 南 省 , 岛 ,邮轮 0.015 26 
© 人 才 培 养 创业 ,教育 ,就 业 , 高 校 , 人 才 , 培 训 , 计 划 , 青 年 ,少数 民族 ,学 校 0.014 28 
CD 生态 建设 生态 ,保护 ,林业 ,森林 ,文明 ,气候 变化 ,绿色 ,治理 ,防治 ,面积 0.008 29 
GN 中 医药 领域 的 合作 交流 医疗 ,健康 ,中 医药 ,卫生 ,医院 ,体育 ,甘肃 ,中 医 ,药品 ,医药 0.004 30 
OO 改革 与 转型 未 来 ,转型 ,政策 ,当前 ,常态 ,需求 ,政府 ,经 济 体 ,面临 ,巨大 0.067 1 
Oe 区 域 协调 发 展 规划 ,区 域 ,协调 ,目标 ,重大 ,民生 ,生态 ,经 济 社会 ,基础 设施 ,水 平 0.045 6 
.2 经 济 效益 增 速 ,消费 ,百分点 ,下 降 , 保 持 ,工业 ,提高 ,服务 业 ,以 上 ,结构 0.038 13 
D> 县 响 农业 供给 侧 改 革 农业 ,供给 ,农产品 ,产能 ,结构 性 , 侧 ,粮食 ,政策 ,提高 ,农村 0.020 24 
项 垃 工 作 制度 管理 制度 ,气象 ,管理 ,意见 ,完善 ,落实 ,要 求 ,部门 ,保障 , 安 全 0.042 10 
中 央 精 神 总 书记 ,委员 ,党 ,精神 ,中 央 , 报 告 ,全 国政 协 , 党 中 央 , 领 导 , 同 志 0.028 16 
和 ea 政府 发 展 方向 问题 ,做 ,解决 ,比较 ,政府 ,情况 ,包括 ,环境 ,应 该 ,过 程 0.027 17 


经 成 为 亚洲 各 国政 策 互 通 的 国际 性 平台 。 

(5) 交 通 建 设 。 该 话题 涉及 中 欧 班 列 等 铁路 建 
设 、 陆 水 联运 通道 口岸 建设 等 内 容 , 体 现 了 ”一带 一 
路 "沿线 国家 为 提升 道路 通达 水 平 实现 全 面 畅通 的 国 
际 物流 运输 所 做 的 努力 。 

4.2.2 话题 热度 演化 分 析 结 果 7 个 类 别 的 话题 在 
全 时 间 段 上 的 热度 情况 见 图 4。 

其 中 ,政策 沟通 类 别 的 话题 热度 最 高 ,热度 值 为 
0.32 ,几乎 占据 了 总 热度 的 三 分 之 一 ;贸易 畅通 类 别 的 
话题 热度 排 第 二 位 ,热度 值 为 0.20; 一 带 一 路 "对 我 国 
经 济 的 影响 类 别 的 话题 热度 排 第 三 位 ,热度 值 为 0.17。 
其 他 4 类 话题 的 热度 值 则 相对 较 低 , 均 不 超过 0. 10。 

按照 新 闻 文 档 的 发 布 时 间 , 将 文档 集合 按照 季度 
离散 , 共 包 括 从 2015 年 第 一 季度 至 2017 年 第 四 季度 
12 个 时 间 段 。 分 别 计 算 各 个 话题 在 不 同时 间 段 中 的 
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热度 ,得 到 话题 的 热度 演化 结果 。 整 体 来 看 ,7 个 类 别 
的 话题 在 不 同时 间 段 的 热度 值 结 果 见 图 5。 

5 显示 ,政策 沟通 类 别 的 话题 热度 波动 较 大 ,但 
始终 占据 所 有 类 别 话题 中 的 热度 最 高 值 。 贸 易 畅通 和 
“一 带 一 路 ”对 我 国 经 济 的 影响 类 别 的 话题 热度 占据 
第 二 到 三 位 ,二 者 热度 最 初 较为 接近 ,2016 年 第 二 季 
度 后 贸易 畅通 类 别 的 话题 热度 更 具 优 势 。 其 他 类 别 的 
话题 热度 相对 较 低 , 且 没 有 明显 的 波动 。 

30 个 细 分 话题 在 不 同时 间 段 的 热度 值 及 总 体 热 
度 走 势 如 表 4 所 示 。 其 中 ,数值 背景 颜色 的 深浅 表示 
热度 的 高 低 , 颜 色 越 深 热度 越 高 ,颜色 越 浅 热度 越 低 。 
箭头 与 横 线 表示 话题 的 热度 走势 ,指向 右上 方 的 箭头 
表示 该 话题 的 热度 为 上 升 趋势 ,指向 右 下 方 的 箭头 表 
示 该 话题 的 热度 为 下 降 趋 势 , 横 线 表 示 话 题 热度 平稳 
波动 ,没有 明显 的 上 升 或 下 降 趋 势 。 
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表 4 “一 带 一 路 ” 细 分 话题 热度 变化 
人 
© 类 别 话题 15Q1 15Q2 15Q3 15Q4 16Q1 16Q2 16Q3 16Q4 17Q1 17Q2 17Q3 17Q4 趋势 
人 政策 沟通 领导 人 会 谈 0.039 0.102 0.050 0.066 0.049 0.078 0.059 0.050 0.050 0.095 0.039 0.080  - 
之 博鳌 亚洲 论坛 0.082 0.072 0.051 0.066 0.084 0.054 0.058 0.045 0.066 0.065 0.044 0.048 NN 
>< 会 议 召 开 0.028 0.050 0.057 0.029 0.022 0.051 0.052 0.056 0.028 0.064 0.067 0.036 了 

5G 人 类 命运 共同 体 0.048 0.027 0.034 0.058 0.047 0.027 0.059 0.033 0.039 0.044 0.043 0.068 
全 世界 局 势 探讨 0.030 0.036 0.038 0.066 0.034 0.051 0.056 0.026 0.026 0.047 0.033 0.053  - 
一 同 中 东欧 国家 的 合作 ”0.027 0.059 0.030 0.060 0.028 0.047 0.038 0.028 0.014 0.044 0.021 0.071 - 
© 同 东盟 国家 的 合作 0.027 0.030 0.037 0.049 0.031 0.027 0.043 0.026 0.025 0.021 0.024 0.037 -= 
设施 联通 交通 建设 0.059 0.059 0.049 0.050 0.035 0.042 0.051 0.060 0.037 0.052 0.042 0.058  - 

能 源 建设 0.027 0.027 0.027 0.024 0.029 0.032 0.021 0.032 0.024 0.026 0.025 0.021 - 

通信 建设 0.016 0.017 0.015 0.010 0.009 0.016 0.015 0.020 0.012 0.013 0.010 0.019 -= 

贸易 畅通 产业 创新 0.067 0.064 0.083 0.048 0.053 0.056 0.060 0.085 0.063 0.050 0.070 0.048  - 

进出 口 0.027 0.032 0.045 0.035 0.030 0.064 0.046 0.046 0.052 0.047 0.063 0.036 二 

自 贸 试 验 区 0.030 0.033 0.028 0.027 0.026 0.019 0.025 0.019 0.035 0.028 0.020 0.025  - 

税务 及 审计 0.030 0.031 0.028 0.017 0.021 0.022 0.024 0.021 0.031 0.026 0.034 0.025  - 

港澳 的 经 贸 角色 0.014 0.027 0.019 0.027 0.028 0.018 0.019 0.027 0.030 0.024 0.016 0.025  - 

产权 保护 0.012 0.021 0.021 0.016 0.018 0.024 0.024 0.023 0.030 0.030 0.031 0.024 /7 

资金 融通 跨 境 金融 服务 0.024 0.019 0.026 0.027 0.025 0.020 0.020 0.025 0.023 0.031 0.039 0.023  - 

民心 相通 科研 创新 0.019 0.024 0.027 0.025 0.029 0.037 0.036 0.047 0.034 0.035 0.033 0.032 二 

文化 交流 0.017 0.013 0.019 0.011 0.018 0.016 0.015 0.027 0.021 0.016 0.025 0.012 -= 

旅游 产业 0.016 0.023 0.016 0.013 0.012 0.016 0.012 0.020 0.015 0.013 0.021 0.012 -= 

人 才 培 养 0.010 0.010 0.013 0.010 0.016 0.012 0.011 0.023 0.015 0.015 0.011 0.012 -— 

生态 建设 0.006 0.004 0.006 0.004 0.006 0.013 0.008 0.011 0.012 0.008 0.009 0.008 7 

中 医药 领域 的 合作 交流 0.002 0.003 0.003 0.004 0.004 0.004 0.005 0.005 0.005 0.004 0.005 0.004 二 
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秦 表 ， 吴 亚 平 ， 王 继 民 . 中 国政 府 网 “一 带 一 路 ”新 闻 话题 挖 气 分 析 [ J]. 图 书 情 报 工 作 ,2019 ,63(15) :103 - 110. 


( 续 表 4) 
类 刚 话题 1501 1502 15Q3 1504 16Q1 16Q2 16Q3 1604 17Q1 1702 1703 1704 趋势 
“一 带 一 路 "对 我 国 经 济 的 影响 改革 与 转型 0.102 0.059 0.084 0.081 0.093 0.059 0.065 0.049 0.062 0.047 0.051 0.048 NN 
区 域 协调 发 展 0.055 0.033 0.037 0.047 0.071 0.050 0.046 0.048 0.059 0.026 0.036 0.031 RY 
经 济 效益 0.034 0.033 0.058 0.030 0.044 0.042 0.033 0.030 0.047 0.029 0.056 0.024 = 
农业 供给 侧 改 革 0.015 0.012 0.015 0.017 0.026 0.024 0.018 0.024 0.025 0.017 0.024 0.014 一 
政府 工作 制度 管理 0.053 0.042 0.036 0.033 0.040 0.036 0.039 0.043 0.057 0.046 0.052 0.035 一 
中 央 精 神 0.046 0.014 0.023 0.022 0.037 0.015 0.015 0.029 0.035 0.015 0.032 0.053 一 
政府 发 展 方向 0.038 0.025 0.029 0.027 0.037 0.029 0.025 0.022 0.031 0.022 0.024 0.018 NN 
可 以 看 出 ,不 同 细 分 话题 的 热度 变化 趋势 不 尽 相 []. 地理 研 究 , 2015， 34(6) :1005 -1014. 
同 ,热度 波动 类 话题 占据 的 比例 最 大 。 其 中 ,热度 上 升 [ 2 ] 姚 玉 娇 .《 人 民 日 报 》“ 一 带 一 路 "专题 报道 新 闻 框架 研究 [LD]. 
ye ~» 66 NY 39 66 9 66 -了 ?77 .66 工 \ 乌鲁木齐 : 新 疆 学 , 2017. 
类 话题 包括 “会 议 召开 ”进出 口 ”产权 保护 ”科研 |， We 
3 总 润 喜 ， 冯 . “一 带 一 ” 国 区 人 盟 论 评 究 
前 Ee 洪 ] 6 爱 尼 领 亏 和 全 作 交 济 ”. 执 庙 Ee 
创新 “生态 建设 "和 “中 医药 领域 的 合作 交流 ” ;热度 pe 
| 小 、 千 昌 1 6 LB Sh SA 77 66 EE HJ? EN Ee ee 
了 峰 类 话题 包括 " 博 歼 亚洲 论坛 “改革 与 转型 “区 域 [4 ] 汪 海 党 《中 国 日 报 ) 与 (中 国 日 报 .美国 版 )* 一 带 一 路 "报道 
协调 发 展 ”" 和 “政府 发 展 方向 ”; 其 余 为 热度 波动 类 话 比较 研究 [D]. 广州 :广东 外 语 外 贸 大 学 ,2017. 
[ 5 ] 田 作 宇 . 基于 语料库 的 印度 英文 报纸 中 “一 带 一 路 ”相关 新 闻 
的 态度 研究 [D1]. 北京 :北京 外 国语 大 学 , 2017. 
结 语 [6 ] SALTON G, YANG C S. On the specification of term values in au- 
"文章 基于 LDA 模型 对 中 国政 府 网 一 带 一 路 ” 相 tomatic indexing[ J ]. Journal of documentation, 1973, 29(4) :351 
一 372. 
闻 齐 行 话 题 执 度 演化 4 窗 官 方 旭 
闻 进 行 话题 抽取 及 热度 演化 分 析 考察 忆 方 媒体 [7 ] ALLAN J, PAPKA R, LAVRENKO V. On-line new event detec- 
一 、 pry 4 A pe 4 
同 话题 内 容 关 注 度 的 变化 趋势 9 得 出 如 下 结 论 : tion and tracking[ C]// ACM SIGIR Forum. Amherst: University 
抽取 出 30 个 一 带 一 路 ” 相关 话题 ， 话题 分 别 属于 of Massachusetts, 1998 :37 —45. 
政策 沟通 .设施 联通 、 贸 易 畅通 ,资金 融通、 民心 相通 、 【8 ] 林 南 . 基于 Web 与 情 的 话题 识别 与 追踪 技术 研究 [D]， 福州 
带 一 路 "对 我 国 经 济 的 影响 和 政府 工作 7 个 类 别 。 福州 大 学 ，2014 
SA 多 9 ] 陈 龙 . 新 闻 热 点 话题 发 现 及 演化 4 究 与 应 用 [D]. 南京 : 
,政策 沟通 类 别 的 细 分 话题 数 最 多 ,包含 领导 和 会。 
京 理 工大 学 , 2017. 
谈 哺 效 亚 洲 论坛 等 7 个 话题 ,涵盖 的 内 容 最 为 丰富 。 
蓝 亚 洲 论坛 等 话题 ,涵盖 的 内 容 最 为 丰富 [10] LAVRENKO V, ALLAN J], DEGUZMAN E, et al. Relevance 


金融 通 类 别 的 细 分 话题 数 最 少 ,内 容 相对 单一 。 从 
信 硬 间 段 来 看 ,七 大 话题 类 别 及 30 个 细 分 话题 中 , 政 
策 沟通 、 贸 易 畅 通 以 及 “一 带 一 路 "对 我 国 经 济 的 影响 
这 三 类 话题 在 全 时 间 段 上 热度 较 高 ,占据 约 70% 的 总 
热度 。 从 热度 演化 趋势 上 看 ,7 个 话题 类 别 的 热度 整 
本 波动 不 大 ,但 可 以 通过 每 个 类 别 下 细 分 话题 的 热度 
演化 情况 看 出 官方 媒体 关注 点 的 变化 ,例如 “改革 与 转 
型 "等 话题 属于 热度 下 降 类 话题 ,“ 进 出 口 " 等 话题 属 
于 热度 上 升 类 话题 ,“ 交 通 建设 ”等 话题 属于 热度 波动 
类 话题 。 

文章 基于 概率 主题 模型 更 深入 地 分 析 了 “一 带 一 
路 "相关 新 闻 的 内 容 , 对 当前 领域 的 相关 研究 进行 补充 。 
在 未 来 ,可 进一步 扩展 数据 源 ,系统 地 涵盖 各 类 官方 媒 
体 的 新 闻 内 容 ,使 结果 更 为 全 面 ,再 尝试 对 新 闻 话题 内 
容 的 关联 性 进行 识别 ,更 深入 地 研究 话题 内 容 的 演化 。 
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Abstract: | Purpose/significance | This paper conducted a LDA topic analysis on “the Belt and Road” related news 


coftent in official medias and built a basic framework of news topic analysis using LDA model to help the public under- 


stand the dynamics and progress of the initiative and its focus in different periods. [Method/process | This paper selected 


“ 卓 避 Belt and Road” related news on the Chinese government Website during 2015 to 2017, and conducted the topic ex- 


traction and heat evolution analysis using LDA model. [ Result/conclusion | A total of 30 topics were extracted and sum- 


maT¥ized as seven categories called policy coordination, facilities connectivity ，unimpeded trade , financial integration ，peo- 


ple 0 -people bond, economic impact and government work. Among them, the policy coordination category has the highest 


heaBduring whole time period. Unimpeded trade category and economic impact category are the second and third highest. 


THeEheat of some topics, such as “ reform and transformation” , decline over time, while others like “import and export” 


inerease. These results reflect the changes in the attention of the official media to different news topics related with “ the 
Beltsand Road”. 
Keywords: “The Belt and Road” LDA model topic extraction heat evolution 
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